Skip to main content

3.9 Hvordan jobbe med variabler med hierarkiske kodelister

Noen typer variabler inneholder kategoriseringer i form av hierarkiske kodelister. Dette er koder som består av en viss mengde sifre (kan også være bokstaver eller andre tegn), der de første sifrene angir kategorisering på høyeste nivå, og jo flere sifre du inkluderer, jo lenger ned i hierarkiet beveger du deg (altså du øker detaljeringsnivået).

Felles for slike variabler er at verdiformatet er alfanumerisk/streng, og at du derfor kan benytte funksjonen substr() til å trekke ut deler av kodeverdiene.

Kodeverdier har den fordelen at de inneholder mer enn én opplysning. Avhengig av hvor mange sifre du velger å benytte, så kan du hente ut informasjon på ulike nivåer.

Eksempler på slike variabler:

  • bosteds- og arbeidsstedskommune
  • utdanningskode
  • næringskode
  • yrkeskode

Bosteds- og arbeidsstedskommune

Aktuelle variabler:

Alle disse variablene inneholder en firesifret kommunekode der de to første sifrene peker til fylke.

Eksempel på uttrekk av høyeste nivå (fylke):

Slik lager man verdi-labler til kodene:

Utdanningskode

Aktuelle variabler:

Dette er seksifrede koder som bygger på NUS2000-standarden, der første siffer angir utdanningsnivå. Jo høyere verdi, jo høyere utdanningsnivå:

De neste sifrene angir informasjon om hva slags type studie man tar.

Eksempel på uttrekk av høyeste nivå (utdanningsnivå):

Slik lager man verdi-labler til kodene:

Næringskode

Aktuelle variabler:

Næringskoder bygger på ulike standarder, avhengig av hvilken tidsperiode man ser på. Nyeste standard er SN2007 som gjelder fra 2008. Merk at næringsdata ikke oppdateres i microdata.no for årene etter 2019. Dette skyldes innstramminger i personvernreglene, noe som særlig påvirker næringsdataene.

De to første sifrene angir hovednæringsgruppe. De etterfølgende sifrene peker på mer detaljerte næringer.

Eksempel på uttrekk av høyeste nivå (hovednæring):

Slik lager man verdi-labler til kodene (benytter SSB sin standardgruppering av hovednæringer):

Yrkeskode

Aktuelle variabler:

Dette er en firesifret kode som baserer seg på STYRK-standarden. Første siffer angir hovednivå der man klassifiserer yrker etter kompetansekrav. Jo høyere verdi, jo lavere kompetansekrav.

Eksempel på uttrekk av høyeste nivå (yrkesnivå):

Slik lager man verdi-labler til kodene:


Det er fullt mulig å benytte en finere inndeling av yrker, dvs. tosifret eller tresifret kodeinndeling.

Eksempel på uttrekk av tosifret inndeling:

Slik lager man verdi-labler til kodene:


Eksempel på uttrekk av tresifret inndeling:

Slik lager man verdi-labler til kodene:

Verdi-labler

Variabler med hierarkiske kodeverdier har innebyggede labler i datasettet. Men dersom du ønsker å trekke ut deler av verdiene for å lage en grovere inndeling, må du selv opprette nye labler som passer til den grovere inndelingen. Slike labler finner du på SSB sin hjemmeside: https://www.ssb.no/klass/. Du søker etter den aktuelle kodestandarden i en tematisk inndeling, og finner da standarder som kan lastes ned som tekstfil. Det er også mulig å lage en semikolonnsepartert fil som kan lastes opp i microdata.no, og som automatisk legger på labler. Man lager fire kolonner der man legger inn følgende verdier:

  1. Kodeverdi
  2. Tom kolonne
  3. Kodeverdi (samme som 1.)
  4. Labler

Rent praktisk limer man først inn verdier og labler i et regneark, i fire kolonner som beskrevet. Deretter lagrer man som csv-fil. Dette kan så lastes opp i microdata.no vha. opplastingsknappen nede til venstre:


\rhd Her finner du et skript som genererer alle lablene som vises i dette kapittelet